Wie KI-generierter Text das Internet vergiftet |MIT Technology Review

2023-01-05 18:12:27 By : Mr. Mison Wong

Plus: Ein Roomba hat eine Frau auf der Toilette aufgenommen.Wie sind Screenshots auf Facebook gelandet?Diese Geschichte erschien ursprünglich in The Algorithm, unserem wöchentlichen Newsletter über KI.Melden Sie sich hier an, um Geschichten wie diese zuerst in Ihren Posteingang zu bekommen.Dies war ein wildes Jahr für KI.Wenn Sie viel Zeit online verbracht haben, sind Sie wahrscheinlich auf Bilder gestoßen, die von KI-Systemen wie DALL-E 2 oder Stable Diffusion generiert wurden, oder auf Witze, Essays oder andere Texte, die von ChatGPT, der neuesten Inkarnation des großen Sprachmodells GPT von OpenAI, geschrieben wurden -3.Manchmal ist es offensichtlich, wenn ein Bild oder ein Textstück von einer KI erstellt wurde.Aber zunehmend können uns die Ergebnisse, die diese Modelle erzeugen, leicht täuschen, dass sie von einem Menschen gemacht wurden.Und insbesondere große Sprachmodelle sind selbstbewusste Bullshitter: Sie erstellen Texte, die korrekt klingen, in Wirklichkeit aber voller Unwahrheiten sein können.Das spielt zwar keine Rolle, wenn es nur ein bisschen Spaß ist, aber es kann schwerwiegende Folgen haben, wenn KI-Modelle verwendet werden, um ungefilterte Gesundheitsratschläge zu geben oder andere Formen wichtiger Informationen bereitzustellen.KI-Systeme könnten es auch dummerweise einfach machen, Unmengen von Fehlinformationen, Missbrauch und Spam zu produzieren, wodurch die von uns konsumierten Informationen und sogar unser Realitätssinn verzerrt werden.Es könnte zum Beispiel bei Wahlen besonders besorgniserregend sein.Die Verbreitung dieser leicht zugänglichen großen Sprachmodelle wirft eine wichtige Frage auf: Wie werden wir wissen, ob das, was wir online lesen, von einem Menschen oder einer Maschine geschrieben wurde?Ich habe gerade eine Geschichte veröffentlicht, die sich mit den Tools befasst, die wir derzeit haben, um KI-generierten Text zu erkennen.Spoiler-Alarm: Das heutige Erkennungs-Toolkit ist für ChatGPT völlig unzureichend.Aber es gibt eine ernstere langfristige Auswirkung.Wir werden vielleicht in Echtzeit Zeuge der Geburt eines Schneeballs aus Bullshit.Große Sprachmodelle werden mit Datensätzen trainiert, die durch das Durchforsten des Internets nach Text erstellt werden, einschließlich all der giftigen, dummen, falschen, bösartigen Dinge, die Menschen online geschrieben haben.Die fertigen KI-Modelle geben diese Unwahrheiten als Tatsache wieder, und ihre Ergebnisse werden online überall verbreitet.Tech-Unternehmen durchsuchen das Internet erneut und schöpfen KI-geschriebenen Text aus, mit dem sie größere, überzeugendere Modelle trainieren, mit denen Menschen noch mehr Unsinn generieren können, bevor sie immer wieder bis zum Erbrechen ausgekratzt werden.Dieses Problem – KI ernährt sich von sich selbst und produziert zunehmend verschmutzte Ergebnisse – erstreckt sich auch auf Bilder.„Das Internet ist jetzt für immer mit Bildern kontaminiert, die von KI erstellt wurden“, sagte Mike Cook, ein KI-Forscher am King's College London, meinem Kollegen Will Douglas Heaven in seinem neuen Artikel über die Zukunft generativer KI-Modelle.„Die Bilder, die wir 2022 gemacht haben, werden Teil jedes Modells sein, das von nun an hergestellt wird.“In Zukunft wird es immer schwieriger, qualitativ hochwertige, garantiert KI-freie Trainingsdaten zu finden, sagt Daphne Ippolito, Senior Research Scientist bei Google Brain, der Forschungseinheit des Unternehmens für Deep Learning.Es wird nicht mehr ausreichen, einfach blind Text aus dem Internet zu saugen, wenn wir verhindern wollen, dass zukünftige KI-Modelle bis zum n-ten Grad Vorurteile und Unwahrheiten enthalten.„Es ist wirklich wichtig zu überlegen, ob wir im gesamten Internet trainieren müssen oder ob es Möglichkeiten gibt, nur die Dinge herauszufiltern, die von hoher Qualität sind und uns das gewünschte Sprachmodell liefern“, sagt Ippolito.Der Aufbau von Tools zur Erkennung von KI-generiertem Text wird entscheidend, wenn Menschen unweigerlich versuchen, KI-geschriebene wissenschaftliche Arbeiten oder akademische Artikel einzureichen oder KI zu verwenden, um gefälschte Nachrichten oder Fehlinformationen zu erstellen.Technische Hilfsmittel können helfen, aber auch Menschen müssen klüger werden.Laut Ippolito gibt es einige verräterische Anzeichen für KI-generierten Text.Menschen sind chaotische Schriftsteller.Unser Text ist voller Tippfehler und Umgangssprache, und die Suche nach dieser Art von Fehlern und subtilen Nuancen ist eine gute Möglichkeit, von einem Menschen geschriebenen Text zu identifizieren.Im Gegensatz dazu funktionieren große Sprachmodelle, indem sie das nächste Wort in einem Satz vorhersagen, und sie verwenden eher gängige Wörter wie „das“, „es“ oder „ist“ anstelle von wackeligen, seltenen Wörtern.Und während sie fast nie Wörter falsch schreiben, machen sie Dinge falsch.Ippolito sagt, man sollte beispielsweise auf subtile Ungereimtheiten oder sachliche Fehler in Texten achten, die als Tatsachen dargestellt werden.Die gute Nachricht: Ihre Forschung zeigt, dass Menschen sich mit etwas Übung darin üben können, KI-generierten Text besser zu erkennen.Vielleicht gibt es doch noch Hoffnung für uns alle.Ein Roomba hat eine Frau auf der Toilette aufgenommen.Wie sind Screenshots auf Facebook gelandet?Diese Geschichte hat meine Haut zum Gänsehaut gemacht.Anfang dieses Jahres erhielt meine Kollegin Eileen Guo 15 Screenshots von privaten Fotos, die von einem Staubsaugerroboter aufgenommen wurden, darunter Bilder von jemandem, der auf der Toilette sitzt, die in geschlossenen Social-Media-Gruppen gepostet wurden.Wer schaut zu?iRobot, der Entwickler des Roomba-Saugroboters, sagt, dass die Bilder nicht aus den Wohnungen von Kunden stammten, sondern von „bezahlten Sammlern und Mitarbeitern“, die schriftliche Vereinbarungen unterzeichneten, in denen sie bestätigten, dass sie Datenströme, einschließlich Videos, zur Schulung an das Unternehmen zurücksendeten Zwecke.Aber es ist nicht klar, ob diese Leute wussten, dass insbesondere Menschen diese Bilder betrachten würden, um die KI zu trainieren.Warum das wichtig ist: Die Geschichte veranschaulicht die zunehmende Praxis, potenziell sensible Daten zu teilen, um Algorithmen zu trainieren, sowie die überraschende, weltumspannende Reise, die ein einzelnes Bild nehmen kann – in diesem Fall von Häusern in Nordamerika, Europa und Asien zu den Servern von iRobot mit Sitz in Massachusetts, von dort zu Scale AI mit Sitz in San Francisco und schließlich zu den von Scale beauftragten Datenarbeitern auf der ganzen Welt.Zusammen zeigen die Bilder eine ganze Datenversorgungskette – und neue Stellen, an denen persönliche Informationen nach außen dringen könnten – die nur wenigen Verbrauchern überhaupt bewusst sind.Lesen Sie die Geschichte hier.OpenAI-Gründer Sam Altman erzählt uns, was er aus DALL-E 2 gelernt hat Altman erzählt Will Douglas Heaven, warum er DALLE-2 für so einen großen Erfolg hält, welche Lehren er aus seinem Erfolg gezogen hat und welche Bedeutung solche Modelle für die Gesellschaft haben.(MIT Technology Review)Künstler können sich jetzt von der nächsten Version von Stable Diffusion abmelden. Die Entscheidung folgt einer hitzigen öffentlichen Debatte zwischen Künstlern und Technologieunternehmen darüber, wie Text-zu-Bild-KI-Modelle trainiert werden sollten.Seit dem Start von Stable Diffusion sind Künstler in Aufruhr und argumentieren, dass das Modell sie über den Tisch zieht, indem es viele ihrer urheberrechtlich geschützten Werke ohne Bezahlung oder Zuschreibung einbindet.(MIT Technology Review)China hat viele Arten von Deepfakes verboten Die chinesische Cyberspace Administration hat Deepfakes verboten, die ohne die Erlaubnis ihres Subjekts erstellt wurden und gegen sozialistische Werte verstoßen oder „illegale und schädliche Informationen“ verbreiten.(Das Register)Wie es ist, die menschliche Unterstützung eines Chatbots zu sein Als Studentin hatte die Schriftstellerin Laura Preston einen ungewöhnlichen Job: Sie sprang ein, als ein Immobilien-KI-Chatbot namens Brenda vom Drehbuch abwich.Das Ziel war, dass die Kunden es nicht bemerken würden.Die Geschichte zeigt, wie dumm die KI von heute in realen Situationen sein kann und wie viel menschliche Arbeit darin steckt, die Illusion intelligenter Maschinen aufrechtzuerhalten.(Der Wächter)Hersteller von Roboterstaubsaugern sagen, dass Ihre Bilder sicher sind, aber eine weitläufige globale Lieferkette für Daten von unseren Geräten birgt Risiken.Meine Avatare wurden karikaturhaft pornisiert, während meine männlichen Kollegen zu Astronauten, Entdeckern und Erfindern wurden.Die Galactica sollte Wissenschaftlern helfen.Stattdessen spuckte es gedankenlos voreingenommenen und falschen Unsinn aus.Online-Videos sind eine riesige und ungenutzte Quelle für Trainingsdaten – und OpenAI sagt, dass es eine neue Art hat, sie zu nutzen.Entdecken Sie Sonderangebote, Schlagzeilen, bevorstehende Veranstaltungen und mehr.Vielen Dank für das Absenden Ihrer E-Mail!Es sieht so aus, als wäre etwas schief gelaufen.Wir haben Probleme beim Speichern Ihrer Einstellungen.Versuchen Sie, diese Seite zu aktualisieren und sie noch einmal zu aktualisieren.Wenn Sie diese Nachricht weiterhin erhalten, kontaktieren Sie uns unter customer-service@technologyreview.com mit einer Liste der Newsletter, die Sie erhalten möchten.Unsere ausführliche Berichterstattung zeigt, was jetzt vor sich geht, um Sie auf das vorzubereiten, was als Nächstes kommt.Melden Sie sich an, um unseren Journalismus zu unterstützen.